智能论文笔记

Learning based Age of Information Minimization in UAV-relayed IoT Networks

Biplav Choudhury , Prasenjit Karmakar , Vijay K. Shah , Jeffrey H. Reed

分类：机器学习

2022-03-08

无人驾驶飞机（UAV）用作空中基础站，可将时间敏感的包装从物联网设备传递到附近的陆地底站（TBS）。在此类无人产用的物联网网络中安排数据包，以确保TBS在TBS上确保新鲜（或最新的）物联网设备的数据包是一个挑战性的问题，因为它涉及两个同时的步骤（i）（i）在IOT设备上生成的数据包的同时进行样本由UAVS [HOP-1]和（ii）将采样数据包从UAVS更新到TBS [Hop-2]。为了解决这个问题，我们建议针对两跳UAV相关的IoT网络的信息年龄（AOI）调度算法。首先，我们提出了一个低复杂的AOI调度程序，称为MAF-MAD，该计划使用UAV（HOP-1）和最大AOI差异（MAD）策略采样最大AOI（MAF）策略，以更新从无人机到TBS（Hop-2）。我们证明，MAF-MAD是理想条件下的最佳AOI调度程序（无线无线通道和在物联网设备上产生交通生成）。相反，对于一般条件（物联网设备的损失渠道条件和不同的周期性交通生成），提出了深厚的增强学习算法，即近端政策优化（PPO）基于调度程序。仿真结果表明，在所有考虑的一般情况下，建议的基于PPO的调度程序优于MAF-MAD，MAF和Round-Robin等其他调度程序。

translated by 谷歌翻译

Closing the Gender Wage Gap: Adversarial Fairness in Job Recommendation

Clara Rus , Jeffrey Luppes , Harrie Oosterhuis , Gido H. Schoenmacker

分类：机器学习

2022-09-20

这项工作的目的是通过根据求职者的简历提供无偏见的工作建议来帮助减轻已经存在的性别工资差距。我们采用生成的对抗网络来从12m职位空缺文本和900k简历的Word2VEC表示中删除性别偏见。我们的结果表明，由招聘文本创建的表示形式包含算法偏见，并且这种偏见会对推荐系统产生实际后果。在没有控制偏见的情况下，建议妇女在我们的数据中薪水明显降低。有了对手公平的代表，这种工资差距消失了，这意味着我们的辩护工作建议减少了工资歧视。我们得出的结论是，单词表示形式的对抗性偏见可以增加系统的真实世界公平性，因此可能是创建公平感知推荐系统的解决方案的一部分。

translated by 谷歌翻译

Development and Validation of ML-DQA -- a Machine Learning Data Quality Assurance Framework for Healthcare

Mark Sendak , Gaurav Sirdeshmukh , Timothy Ochoa , Hayley Premo , Linda Tang , Kira Niederhoffer , Sarah Reed , Kaivalya Deshpande , Emily Sterrett , Melissa Bauer

分类： (统计)机器学习 | 机器学习

2022-08-04

机器学习和临床研究社区利用现实世界数据（RWD）的方法，包括电子健康记录中捕获的数据（EHR）截然不同。虽然临床研究人员谨慎使用RWD进行临床研究，但用于医疗团队的ML会消费公共数据集，并以最少的审查来开发新算法。这项研究通过开发和验证ML-DQA来弥合这一差距，ML-DQA是基于RWD最佳实践的数据质量保证框架。 ML-DQA框架适用于两个地理位置的五个ML项目，分别是不同的医疗状况和不同的人群。在这五个项目中，共收集了247,536名患者的RWD，共有2,999项质量检查和24份质量报告。出现了五种可推广的实践：所有项目都使用类似的方法来分组冗余数据元素表示；所有项目都使用自动实用程序来构建诊断和药物数据元素；所有项目都使用了一个共同的基于规则的转换库；所有项目都使用统一的方法将数据质量检查分配给数据元素；所有项目都使用类似的临床裁决方法。包括临床医生，数据科学家和受训者在内的平均有5.8个人参与每个项目实施ML-DQA，每个项目平均进行了23.4个数据元素。这项研究证明了ML-DQA在医疗项目中的重要性作用，并为团队提供了开展这些基本活动的框架。

translated by 谷歌翻译

Statistical Inference with Stochastic Gradient Algorithms

Jeffrey Negrea , Jun Yang , Haoyue Feng , Daniel M. Roy , Jonathan H. Huggins

分类：机器学习 | (统计)机器学习

2022-07-25

随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是，实际上，调整这些算法通常是使用启发式和反复试验而不是严格的，可概括的理论来完成的。为了解决理论和实践之间的这一差距，我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中，我们的结果表明，具有较大固定步长的迭代平均值可能会导致（局部）M-静态器的统计效率近似。在抽样环境中，我们的结果表明，通过适当的调整参数选择，限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制，对模型错误指定后验的调整或MLE的渐近分布；而幼稚的调整极限与这些都不相对应。此外，我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言，我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。

translated by 谷歌翻译

GlacierNet2: A Hybrid Multi-Model Learning Architecture for Alpine Glacier Mapping

Zhiyuan Xie , Umesh K. Haritashya , Vijayan K. Asari , Michael P. Bishop , Jeffrey S. Kargel , Theus H. Aspiras

分类：机器学习

2022-04-06

近几十年来，气候变化显着影响冰川动态，导致质量损失和冰川相关危害的风险增加，包括冰川上和冰期湖上的湖泊发展以及灾难性的爆发洪水。快速变化的条件决定了对气候 - 冰川动力学的连续和详细观察的需求。有关冰川几何形状的主题和定量信息对于理解气候强迫和冰川对气候变化的敏感性的敏感性至关重要，但是，基于光谱信息和常规机器学习技术的使用，基于使用光谱信息和常规的机器学习技术，众所周知，准确地绘制碎片冰川冰川（DCG）。这项研究的目的是改善较早提出的基于深度学习的方法Glaciernet，该方法旨在利用卷积神经网络分割模型来准确地概述区域DCG消融区。具体而言，我们开发了一种增强的冰川架构，使多个模型，自动后处理和盆地级水文流技术来改善DCG的映射，从而包括消融区和积累区域。实验评估表明，GlacierNet2改善了消融区的估计，并允许高水平的交点比联合（IOU：0.8839）得分。所提出的体系结构在区域尺度上概述了完整的冰川（累积和消融区），总体评分为0.8619。这是自动化完整冰川映射的至关重要的第一步，可用于准确的冰川建模或质量平衡分析。

translated by 谷歌翻译

Interference Suppression Using Deep Learning: Current Approaches and Open Challenges

Taiwo Oyedare , Vijay K Shah , Daniel J Jakubisin , Jeff H Reed

分类：机器学习

2021-12-16

鉴于无线频谱的有限性和对无线通信最近的技术突破产生的频谱使用不断增加的需求，干扰问题仍在继续持续存在。尽管最近解决干涉问题的进步，但干扰仍然呈现出有效使用频谱的挑战。这部分是由于Wi-Fi的无许可和管理共享乐队使用的升高，长期演进（LTE）未许可（LTE-U），LTE许可辅助访问（LAA），5G NR等机会主义频谱访问解决方案。因此，需要对干扰稳健的有效频谱使用方案的需求从未如此重要。在过去，通过使用避免技术以及非AI缓解方法（例如，自适应滤波器）来解决问题的大多数解决方案。非AI技术的关键缺陷是需要提取或开发信号特征的域专业知识，例如CycrationArity，带宽和干扰信号的调制。最近，研究人员已成功探索了AI / ML的物理（PHY）层技术，尤其是深度学习，可减少或补偿干扰信号，而不是简单地避免它。 ML基于ML的方法的潜在思想是学习来自数据的干扰或干扰特性，从而使需要对抑制干扰的域专业知识进行侧联。在本文中，我们审查了广泛的技术，这些技术已经深入了解抑制干扰。我们为干扰抑制中许多不同类型的深度学习技术提供比较和指导。此外，我们突出了在干扰抑制中成功采用深度学习的挑战和潜在的未来研究方向。

translated by 谷歌翻译

TAGLETS: A System for Automatic Semi-Supervised Learning with Auxiliary Data

Wasu Piriyakulkij , Cristina Menghini , Ross Briden , Nihal V. Nayak , Jeffrey Zhu , Elaheh Raisi , Stephen H. Bach

分类：机器学习 | 计算机视觉

2021-11-08

机器学习从业者通常可以访问数据的频谱：目标任务（通常是有限），未标记的数据和辅助数据的标记数据，用于其他任务的许多可用标记的数据集。我们描述了TAGLET，一个系统为学习技术，用于自动利用所有三种类型的数据并创建高质量的可服装分类器。 TAGLET的关键组件是：（1）根据知识图组织组织的辅助数据，（2）封装用于利用辅助和未标记数据的不同方法的模块，以及（3）将被整合模块组合成可用的蒸馏阶段模型。我们将TAGLETS与最先进的传输学习和半监督学习方法进行比较，四个图像分类任务。我们的研究涵盖了一系列设置，改变了标记数据的量和辅助数据的语义相关性到目标任务。我们发现，辅助和未标记数据的智能融合到多个学习技术使Taglet能够匹配 - 并且最常见的是这些替代方案。 Taglets可作为Github.com/batsresearch/taglet的开源系统使用。

translated by 谷歌翻译

Fine-Grained Hard Negative Mining: Generalizing Mitosis Detection with a Fifth of the MIDOG 2022 Dataset

Maxime W. Lafarge , Viktor H. Koelzer

分类：计算机视觉

2023-01-03

Making histopathology image classifiers robust to a wide range of real-world variability is a challenging task. Here, we describe a candidate deep learning solution for the Mitosis Domain Generalization Challenge 2022 (MIDOG) to address the problem of generalization for mitosis detection in images of hematoxylin-eosin-stained histology slides under high variability (scanner, tissue type and species variability). Our approach consists in training a rotation-invariant deep learning model using aggressive data augmentation with a training set enriched with hard negative examples and automatically selected negative examples from the unlabeled part of the challenge dataset. To optimize the performance of our models, we investigated a hard negative mining regime search procedure that lead us to train our best model using a subset of image patches representing 19.6% of our training partition of the challenge dataset. Our candidate model ensemble achieved a F1-score of .697 on the final test set after automated evaluation on the challenge platform, achieving the third best overall score in the MIDOG 2022 Challenge.

translated by 谷歌翻译

MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement Understanding

Steven H. Wang , Antoine Scardigli , Leonard Tang , Wei Chen , Dimitry Levkin , Anya Chen , Spencer Ball , Thomas Woodside , Oliver Zhang , Dan Hendrycks

分类：自然语言处理

2023-01-02

Reading comprehension of legal text can be a particularly challenging task due to the length and complexity of legal clauses and a shortage of expert-annotated datasets. To address this challenge, we introduce the Merger Agreement Understanding Dataset (MAUD), an expert-annotated reading comprehension dataset based on the American Bar Association's 2021 Public Target Deal Points Study, with over 39,000 examples and over 47,000 total annotations. Our fine-tuned Transformer baselines show promising results, with models performing well above random on most questions. However, on a large subset of questions, there is still room for significant improvement. As the only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark for both the legal profession and the NLP community.

translated by 谷歌翻译

Detection of Groups with Biased Representation in Ranking

Yuval Moskovitch , Jinyang Li , H. V. Jagadish

分类：机器学习

2022-12-30

Real-life tools for decision-making in many critical domains are based on ranking results. With the increasing awareness of algorithmic fairness, recent works have presented measures for fairness in ranking. Many of those definitions consider the representation of different ``protected groups'', in the top-$k$ ranked items, for any reasonable $k$. Given the protected groups, confirming algorithmic fairness is a simple task. However, the groups' definitions may be unknown in advance. In this paper, we study the problem of detecting groups with biased representation in the top-$k$ ranked items, eliminating the need to pre-define protected groups. The number of such groups possible can be exponential, making the problem hard. We propose efficient search algorithms for two different fairness measures: global representation bounds, and proportional representation. Then we propose a method to explain the bias in the representations of groups utilizing the notion of Shapley values. We conclude with an experimental study, showing the scalability of our approach and demonstrating the usefulness of the proposed algorithms.

translated by 谷歌翻译